Site Reliability Engineering
Набор практик и приемов обеспечения бесперебойности работы информационных систем
Существенное отклонение в работе сервиса от спецификации
У вас сбой, если ваш колцентр не справляется с нагрузкой
Способность работать без сбоев
Надежность часто измеряют в проценте времени, когда не было сбоев
Надежность конкурирует за ресурсы с другими ценностями: скоростью поставки, богатсвом функционала, стоимостью разработки и т.д.
Резкое изменение в требованиях к надежности сервиса
SRE делают все то же самое, что должны делать инженеры
Программисты иногда инженеры, а иногда «переводчики» с человеческого на компьютерный
Программист-инженер может быть еще и SRE
Disaster Recovery Plan / Disaster Recovery Testing
План восстановления после катастроф/Тестирование восстановления после катастроф
Повторы, таймауты, выключатели, переключатели функционала и т.п.
История термина